DeepSeek「推理模型」中文基准评测出炉！小学奥数紧随o1，链式推理进步空间大

Original SuperCLUE CLUE中文语言理解测评基准

2024-12-08

本测评结果仅用于学术研究。

11月20日，DeepSeek正式上线全新研发的推理模型 DeepSeek-R1-Lite 预览版。

据官方介绍，DeepSeek R1 系列模型使用强化学习训练，推理过程包含大量反思和验证，思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上，取得了媲美 o1-preview 的推理效果，并为用户展现了 o1 没有公开的完整思考过程。

针对公众关注的DeepSeek-R1-Lite预览版，在中文场景下的推理和数学的性能问题，专业第三方测评机构SuperCLUE对DeepSeek-R1-Lite预览版进行了深入评估。

测评环境

参考标准：SuperCLUE-CoT中文链式推理测评基准、SuperCLUE-Math6o奥林匹克数学竞赛测评基准。

评测模型：DeepSeek-R1-Lite 预览版（网页）

评测集：

1. SuperCLUE-CoT中文大模型链式推理评测集。不仅关注模型的解题过程和最终答案，还重点考察其构建思维链和反思能力。内容涵盖了物理、化学、生物等科学领域的问题以及编解码等挑战性问题。 2.SuperCLUE-Math6o奥林匹克数学竞赛（小学）评测集。覆盖小学奥数中常见7类问题：应用题、行程、数论、几何、计数、计算及奥数杂题。

测评方法：针对每一道推理题目，我们提供人工校验和核对后的参考答案和推理过程；然后根据设定的评估流程、评价标准和打分规则（1-5分），裁判模型对候选模型的答案进行评估。链式推理设定的评价标准包括：思维过程、解题过程、最终答案等。小学奥数设定的评价标准包括：结果正确性、逻辑清晰度、表达清晰度等。

先说结论

结论1：与 o1-preview 相比，Deepseek R1-Lite-Preview 在两大推理任务中的平均差距约为 20 个点。

结论2： 相比上一代版本 Deepseek V2.5，Deepseek R1-Lite-Preview在两大推理任务中平均提升了16个点。

结论3：与国内其他中文大模型相比，Deepseek R1-Lite-Preview当前在两大推理任务中处于国内最好水平。

注：这两大推理任务，分别是小学奥数（math6o）的总分，以及链式推理（CoT）的关键成绩，即回答质量。

测评结果

对比分析

小学奥数示例

示例1：应用题

问

一个水池，有三个进水口和两个出水口，如果打开1个进水口和2个出水口，注满水池需要25分钟；如果打开2个进水口和2个出水口，注满水池需要10分钟。问：此时同时打开3个进水口和一个出水口，那么注满整个水池需要多少时间？

DeepSeek-R1-Lite-Preview回答：4.45分（满分5分）

链式推理示例

示例2：解码题

问

现在有一道推理题，如下所示：

gvnkovh zmw hgzgfvh wvxzb -> Temples and statues decay，

使用上面的例子来解码：

yllph klhhvhh zm vhhvmxv lu rnnligzorgb

DeepSeek-R1-Lite-Preview回答：33分（满分40）

# 加入社群

更多详细DeepSeek-R1-Lite-Preview最新大模型测评详情，可加入SuperCLUE-Claude交流群。

# 联系我们

链式推理测评申请方式：

请使用单位邮箱，将测评研究目的、计划，研究机构、申请者介绍和联系方式（手机或微信），发送到邮箱。

邮箱: contact@superclue.ai，标题是：SuperCLUE链式推理测评申请

小学奥数测评申请方式：

请使用单位邮箱，将测评研究目的、计划，研究机构、申请者介绍和联系方式（手机或微信），发送到邮箱。

邮箱: contact@superclue.ai，标题是：SuperCLUE小学奥数测评申请

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

点击阅读原文，查看SuperCLUE排行榜

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

DeepSeek「推理模型」中文基准评测出炉！小学奥数紧随o1，链式推理进步空间大

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

DeepSeek「推理模型」中文基准评测出炉！小学奥数紧随o1，链式推理进步空间大

您可能也对以下帖子感兴趣